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摘要 : 【 目的 】 结 合 链 路 预测 与 机 器 学 习 , 提出 推荐 未 来 科研 合作 的 新 方法 ,以 提高 单独 基于 链 路 预测 方法 的 推 
荐 精确 度 。[ 方法 】 构建 加 权 作者 合作 网 ， 以 不 同 的 链 路 预测 指标 作为 特征 输入 , 运用 极端 随机 树 (Extremely 
Randomized Trees, ET) 机 器 学 习 算 法 训练 分 类 ,并 利用 遍历 算法 求 取 分 类 结果 的 最 优 权 重组 合 , 选取 TOP 准确 度 
的 预测 作为 合作 推荐 结果 。[ 结果 】 选取 纳米 科技 领域 2008 年 -2010 年 SCI 论文 数据 进行 实证 。 在 城市 合作 推 
荐 中 , 改进 的 ET 方法 优 于 已 有 方法 有 良好 的 推荐 成 功率 ; 预测 方法 受 网 络 结构 等 因素 影响 较 小 , 适用 范围 更 
广泛 。[ 局 限 ] 科研 合作 受 合作 动机 、 地 域 、 语 言 等 诸多 因素 影响 , 加 权 作 者 合作 网 没有 反映 在 一 篇 论文 中 同城 
市 、 同 机 构 的 多 个 作者 , 也 没有 反映 上 述 因 素 。[ 结论 】 改进 算法 能 够 比 单个 预测 指标 产生 更 准确 的 合作 推荐 建 
议 , 也 为 推广 到 大 学 等 机 构 、 个 人 等 更 微观 的 应 用 层面 提供 参考 。 

关键 词 : 科研 合作 网 络 链 路 预测 ”机 器 学 习 ”随机 森林 极端 随机 树 ”推荐 
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域 的 重要 影响 及 优越 的 预测 性 能 , 慢 慢 引进 到 图 书 情 
1 引 报 领域 。 在 该 领域 , 针对 科研 合作 网 络 的 链 路 预测 方 
在 知识 经 济 时 代 , 合作 关系 隐 含 着 知识 在 某 种 社 。 法 取得 了 很 多 进展 中。 但 链 路 预测 本 身 的 预测 精确 
会 关系 之 间 的 交流 、 转 移 、 共 享 中 。 科 研 合作 作为 科 ，” 度 严重 依赖 网 络 拓扑 结构 ,适用 性 较 差 。 机 器 学 习 中 
学 生产 的 一 种 重要 形式 ,已 成 为 科学 研究 成 果 增长 和 ”的 集成 学 习 , 通过 将 多 种 不 同 链 路 预测 算法 融合 在 
创新 的 强劲 动力 。 从 科研 成 果 看 , 论文 合 著 是 科研 合 。 起 , 能够 有 效 解决 适用 性 较 差 这 一 局 限 ,并 在 极 大 地 
作 最 显 性 的 表现 之 一 , 论文 合 著者 之 间 的 复杂 关系 构 ”扩展 链 路 预测 方法 适用 范围 的 同时 ,进一步 提高 链 路 
成 了 科研 合作 网 络 。 科 研 合作 网 络 会 随时 间 推 移 而 演 ”预测 方法 的 推荐 准确 度 。 


了 


化 , 学 者 们 分 别 从 网 络 结构 4、 网络 演化 机 制 申 、 网 本 文 总 结 链 路 预测 方法 在 科研 合作 网 络 中 的 研究 
络 增长 外 等 方面 研究 科研 合作 网 络 , 随后 Kretschmer ”进展 ; 以 纳米 领域 科研 合作 关系 为 例 ， 基 于 链 路 预测 
又 聚焦 到 个 人 合作 行为 的 研究 上 。 和 极端 随机 树 , 探讨 推荐 未 来 科研 合作 伙伴 的 方法 ; 


近年 来 , 复杂 网 络 中 链 路 预测 方法 受到 越 来 越 多 将 链 路 预测 与 机 需 学 习 方法 结合 ,对 比分 析 Random 
的 关注 , 链 路 预测 在 网 络 重 构 、 网 络 演化 模型 评价 、 Forest/Extremely Randomized Trees 两 种 机 器 学 习 算 法 
推荐 系统 "等 方面 有 着 重要 的 应 用 。 因 其 在 众多 领 ”得 出 Extremely Randomized Trees 算法 预测 精确 度 较 
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好 ; 并 进一步 改进 方法 , 利用 枚 举 得 到 的 最 优 组 合 权 
重 进行 推荐 排序 , 得 到 更 精确 的 推荐 结果 。 为 合作 者 
本 喘 和 政策 制定 者 产生 精准 合作 推荐 提供 一 种 有 效 
思 路 [e] 


2 相关 研究 


网 络 中 的 链 路 预测 是 根据 网 络 中 节点 的 特征 或 已 
经 存在 的 结构 特征 ,预测 两 点 间 边 的 存在 性 。Getoor 
等 中 较 早 提 出 网 络 中 的 链 路 预测 问题 是 指 如 何 通过 已 
知 的 网 络 节 点 以 及 网 络 结构 等 信息 预测 网 络 中 尚未 产 
生 连 边 的 两 个 节点 之 间 产 生 连接 的 可 能 性 。 

链 路 预测 在 复杂 网 络 领域 有 较 深 研 究 ，Linben- 
Nowell 等 "在 链 路 预测 的 研究 方法 上 做 了 开创 性 论 
述 ,， 吕 琳 媛 等 ”将 其 引入 国内 , 总 结 了 基于 网 络 折 
扑 结构 三 种 研究 思路 : 基于 节点 相似 性 的 链 路 预测 、 
基于 最 大 似 然 估 计 的 链 路 预测 和 基于 概率 模型 的 链 
路 预测 。 三 者 各 有 优点 与 不 足 : 基于 节点 相似 性 的 链 
路 预测 只 涉及 网 络 的 结构 信息 ， 相 似 性 指标 计算 比 
较 简 单 , 但 不 同 指标 在 不 同 网 络 中 的 预测 能 力 却 不 
一 致 ， 其 预测 的 精确 度 高 低 取决 于 该 种 相似 性 能 否 
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很 好 地 抓 住 目标 网 络 的 结构 特征 ; 基于 最 大 似 然 估 
计 的 链 路 预测 由 于 针对 的 是 整个 网 络 结构 ,计算 复 
杂 性 较 高 , 不 太 适 合 在 规模 较 大 的 网 络 中 应 用 ; 而 基 
于 概率 模型 的 链 路 预测 的 优势 在 于 较 高 的 预测 精确 
度 , 不 仅 使 用 网 络 结构 信息 ,还 涉及 到 节点 属性 信 
息 , 但 计算 复杂 度 最 高 ， 非 普 适 性 的 参数 使 其 应 用 范 
围 受到 限 带 

因 链 路 预测 良好 的 性 能 ， 因 而 受到 来 自 不 同 领 
域 、 拥 有 不 同 背 景 的 科学 家 的 广泛 关注 。 针 对 知识 创 
造 主体 间 的 合作 关系 而 构建 合作 网 络 ， 以 合 著 论 文 为 
基本 表现 形式 。 链 路 预测 也 被 学 者 结合 到 科研 合作 网 
络 推荐 方法 中 ,相关 研究 大 体 分 为 4 种 方式 ( 见 表 1)。 
上 标 加 权 , 将 合作 的 次 数 作为 权重 加 入 到 指标 中 , 能 
在 一 定 情况 下 提高 链 路 预测 精确 度 ; 基于 时 序 分 析 ， 
也 是 改进 链 路 预测 指标 , 考虑 时 间 因 素来 模拟 演化 过 
程 ; 不 同 层面 网 络 对 比 , 分 别 从 国家 、 机构、 作者 三 个 
层面 , 应 用 链 路 预测 方法 进行 预测 ,发 现 越 宏观 层面 
预测 精确 度 越 高 ; 加 权 网 络 ， 从 不 同 角 度 构 造 网 络 ， 
对 每 个 网 络 分 别 应 用 链 路 预测 方法 , 将 所 得 相似 性 分 
数 加 权 后 再 进行 排序 。 
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表 1 链 路 预测 在 科研 合作 网 络 中 的 研究 现状 


主要 方法 代表 性 研究 
pi Gunst 以 安德鲁 大 学 学 院 合作 网 络 以 及 计量 情报 学 领域 的 合作 网 络 为 例 , 得 出 加 权 的 链 路 预测 指标 比 不 加 
了 权 指 标 预测 效果 要 好 。 
Tylenda 等 (9 考虑 时 间 进 化 对 预测 结果 的 影响 ， 在 Wang 等 co 提出 的 局 部 概率 模型 基础 上 ,推导 出 考虑 时 间 
基于 时 序 分 析 信息 的 最 大 炳 原则 方法 ,把 作者 a、b 最 后 一 次 合作 到 现在 间隔 的 时 间 长 度 融 入 到 加 权 的 链 路 预测 指标 中 
提升 链 路 预测 的 预测 成 功率 。 
不 同 层面 网 络 对 比 。 “Yn 等 "从 作者 、 机 构 、 国 家 三 个 层面 构造 合作 网 络 进行 研究 ,对 比 三 个 层面 合作 网 络 在 8 种 独立 预测 指 
标 下 的 预测 结果 ， 发现 越 高 层面 预测 精确 度 越 高 ， 即 国家 层面 高 于 机 构 层面 高 于 个 人 层面 。 
Liben-Nowel 等 (9 提出 ,可 以 利用 网 络 拓扑 结构 特征 ,将 论文 标题 ,作者 所 在 机 构 和 地 理 位 置信 息 加 入 到 计 
加 权 网 络 算 中 ,对 链 路 预测 方法 进行 微调 。 具体 实施 时 , Guns?" 将 这 些 信息 以 不 同 层面 的 网 络 形式 表现 出 来 , 提出 一 
种 Multi-Input 方法 ,构建 作者 合作 网 络 、 部 门 网 络 和 物理 位 置 网 络 , 将 三 个 子 网 络 线性 加 权 构 成 训练 集 。 
这 4 类 方法 所 采用 的 链 路 预测 指标 主要 是 基于 节 ”者 是 将 更 多 的 属性 集成 到 一 个 指标 中 , 使 模型 具有 更 


点 相似 性 的 链 路 预测 指标 , 但 是 要 么 直接 针对 单个 链 
路 预测 指标 分 析 , 要 么 对 几 个 指标 得 到 的 相似 性 分 数 
进行 简单 的 线性 加 权 , 这 并 不 能 达到 很 好 的 预测 效 
果 。 至 今 为 止 , 已 有 超过 30 种 指标 被 用 在 解决 链 路 预 
测 问题 中 , 但 单一 指标 所 考虑 的 信息 都 相对 有 限 ， 并 
且 推 荐 成 功率 依赖 网 络 本 身 的 拓扑 结构 , 方法 适用 性 
较 差 。 因 此 寻找 一 种 合适 的 途径 将 这 些 指标 集成 , 或 


广泛 的 适用 性 以 及 较 高 推荐 成 功率 , 成 为 学 者 研究 的 
一 个 方向 。 

Mitchell 中 提出 ,机 器 学 习 中 的 集成 学 习 , 一 个 重 
要 表现 在 于 其 结合 各 种 特征 , 取长补短 利用 多 种 形式 
的 集成 学 习 系 统 研究 问题 。 集 成 学 习 也 被 尝试 引入 到 
科研 合作 领域 。 Guns 等 '" 提 出 结合 RF 方法 , 对 非洲 、 
中 东 和 南亚 的 城市 间 科研 合作 进行 研究 , 构建 了 1997 
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年 -2001 年 、2002 年 -2006 年 、2007 年 -2011 年 三 个 
连续 时 间 段 内 症 疾 和 肺结核 研究 领域 中 的 加 权 合作 网 
络 。 通 过 集成 学 习 中 的 随机 森林 算法 构建 分 类 器 , 将 
预测 排名 靠 前 的 结果 作为 科研 合作 建议 进行 推荐 , 推 
荐 精确 度 优 于 单个 链 路 预测 指标 的 推荐 精确 度 。 

近年 ， 机 器 学 习 越 来 越 广泛 地 应 用 在 各 个 学 术 领 域 ， 
其 与 链 路 预测 结合 的 思路 已 经 开始 有 人 关注 请 。 本 文 改 
进 Guns 等 ("提出 的 结合 RF 的 方法 (以 下 统一 将 原 方 
法 称 为 “RF 方法 ” 改进 的 方法 称 为 “改进 ET 方法 ”), 
将 链 路 预测 与 机 器 学 习 结合 ， 以 提高 科研 合作 推荐 的 
准确 性 , 使 其 更 为 实用 。 


3 数据 说 明 与 网 络 构建 


本 文 进行 纳米 领域 的 科研 合作 推荐 , 利用 Arora 
等 多 构建 的 检索 式 从 Web of Science(WOS) 核 心 数据 
库 中 检索 (检索 式 包含 纳米 领域 各 关键 词 ， 并 去 除 部 分 
无 用 的 停 用 词 ， 篇 幅 限 制 此 处 略 去 ), 选取 2008 年 、 
2009 年 和 2010 年 三 个 时 期 , 每 一 年 所 有 的 纳米 领域 
Article 类 型 文章 构成 一 个 科研 合作 网 络 ,三 个 时 期 形 
成 三 个 持续 变化 的 科研 合作 网 络 , 如 表 2 所 示 。 


表 2 数据 说 明 以 及 每 个 时 期 的 Article 论文 数 
数据 说 明 2008 年 2009 年 2010 年 
论文 数 /篇 120 027 139 810 148 426 
点 个 数 4 638 5 088 5 400 
边 条 数 39 712 47 689 53 073 


构建 网 络 时 ， 提 取 城 市 构建 合作 加 权 网 ， 每 一 个 
城市 代表 网 络 中 的 一 个 点 ,所 有 的 城市 集合 构成 节点 
集 。 具 体 而 言 , 一 篇 文章 如 果 有 两 个 作者 , 分 别 属 于 两 
个 不 同 的 城市 , 则 这 两 个 城市 就 被 记录 合作 一 次 。 同 
一 文章 如 果 有 多 个 作者 ,多 个 作者 属于 不 同城 市 ， 则 
这 些 城市 在 网 络 中 存在 一 条 连 边 , 边 的 权重 加 1。 城 市 
A、B 间 的 权重 为 属于 城市 A、B 的 作者 共 著 的 文章 数 
量 。 由 于 地 址 格式 的 很 大 差别 以 及 数据 的 不 一 致 , 所 
有 的 结果 都 进行 人 工 检查 并 进行 必要 的 更 正 。 


4 基于 链 路 预测 和 ET 的 科研 合作 推荐 


首先 提取 合适 的 链 路 预测 指标 特征 ， 进 而 根据 特 
征 进行 机 带 学 习 建 模 ,然后 在 机 带 学 习 中 的 ET 算法 
中 融合 不 同 的 特征 ， 从 而 取得 更 好 的 结果 。 
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4.1 链 路 预测 指标 的 特征 选取 

笔者 关注 目标 国家 中 还 没有 合作 的 城市 ,对 它们 
是 否 产生 合作 感 兴趣 。 对 于 每 个 链 路 预测 指标 ,依据 
现 有 的 网 络 确定 每 个 点 对 之 间 的 相关 性 分 数 5S, 挑选 
出 那些 还 未 连接 的 点 对 并 依据 S 进行 降序 排序 , 可 以 
产生 一 个 未 来 最 有 可 能 合作 的 城市 列表 。 

在 三 种 链 路 预测 研究 思路 中 ， 基 于 节点 相似 性 的 
链 路 预测 方法 计算 简单 , 也 可 以 尝试 在 较 大 规模 网 络 
中 应 用 ,同时 在 适当 拓扑 结构 的 网 络 中 表现 不 错 ， 
此 在 知识 网 络 研究 中 应 用 较 广 。 本 文 主要 选取 基于 他 
点 相似 性 的 链 路 预测 方法 进行 研究 。 综 合 考 虑 算法 实 
施 的 效率 以 及 预测 表现 请 ,选取 6 个 指标 作为 机 器 学 
习 的 输入 特征 : 考虑 邻 节 点 信息 的 指标 , 包括 
Common Neighbours(CN), Adamic/Adart "(AA), Resource 
Allocation(RA); 考虑 整个 网 络 拓扑 结构 的 指标 , 包括 
Katzt*", Graph Distance(GD), SimRank。Gunst 的 研究 
表明 权重 在 指标 中 的 恰当 体现 可 以 提高 预测 精确 度 ， 
因此 实验 只 包括 加 权 的 版 本 。 

利用 链 路 预测 方法 进行 特征 提取 主要 包括 两 个 步 
又 呈 : 将 链 路 预测 指标 应 用 在 某 个 训练 网 络 上 ,预测 
可 能 产生 的 新 链接 ; 通过 与 测试 网 络 进行 比较 , 评价 
链 路 预测 指标 。 

4.2 融合 ET 方法 

随机 森林 (Random Forest RF) 和 ET 都 属于 机 器 学 
习 中 的 集成 学 习 ， Random Forest 从 特征 集合 中 选择 
效果 最 佳 的 那个 特征 用 来 分 类 , 得 到 的 分 类 结果 也 许 
稍 好 些 , 但 多 次 运行 的 结果 可 能 不 稳定 。 其 后 ,ET 得 
以 发 展 , 完全 随机 地 选择 特征 , 得 到 的 结果 方差 更 小 、 
更 稳定 。 本 文 在 对 比 两 者 后 ,主要 选择 ET 作为 训练 方 
法 , 具体 步骤 如 下 。 

QD 将 数据 集 划 分 成 2008 年 、2009 年 和 2010 年 三 个 时 
期 ,用 2008 年 的 数据 构造 早期 网 络 Al1, 2009 年 的 数据 构造 
后 期 网 络 A2, 2010 年 的 数据 作为 验证 集 ; 

@ 选 取 相 应 链 路 预测 指标 ， 对 Al 中 的 每 个 点 对 ， 分 别 
计算 相关 性 分 数 ; 

@ 相 关 性 分 数 作 为 特征 ET 根据 Al 中 的 特征 以 及 A2 
中 相对 应 的 分 类 数据 (是 否 连 接 )、 作 为 训练 集 , A2 中 已 知 的 
边 是 否 存在 (用 0, 1 表示 ) 作 为 分 类 结果 进行 学 习 ， 构建 模 
型 。 通 过 学 习 当前 时 间 片 每 个 预测 指标 的 相关 性 强度 以 及 下 
一 时 间 片 对 应 是 否 产生 连接 ,构建 较为 准确 的 分 类 器 ; 

(@ 对 A2 中 每 一 个 可 能 存在 的 连接 ,匹配 Al 中 链 路 预 


测 指 标 得 到 的 相关 性 分 数 ; 

@ 将 A2 中 的 特征 作为 训练 集 ， 利 用 之 前 步骤 构造 的 分 
类 器 进行 分 类 ,提供 预测 的 分 类 结果 ， 挑 选 出 重新 判断 的 可 
能 连接 的 点 对 ; 

@ 给 步骤 回 中 重新 挑选 的 可 能 连接 的 点 对 赋予 权重 ， 
每 一 个 权重 组 合 对 应 一 组 推荐 精确 度 ; 

@ 枚 举 所 有 可 能 的 权重 组 合 ， 从 中 选取 精确 度 最 高 的 
推荐 结果 对 应 的 权重 组 合 ， 推荐 前 n 对 预测 结果 作为 合作 配 
对 推荐 。 

本 文 使 用 Guns 提供 的 LinkPred 中 Python 包 来 计 
算 链 路 预测 指标 ”使 用 Scikit-learn59 进 行 机 器 学 习 
训练 , RF/ET 算法 森林 中 树 的 棵 数 选择 400, 推荐 精确 
度 均 为 10 次 计算 结果 的 平均 值 。 

4.3 评价 指标 

链 路 预测 通常 使 用 的 评价 指标 有 AUC 、Precision 
和 Ranking Score， 它 们 对 预测 精确 度 衡量 的 侧重 点 不 
同 。 其 中 AUC 从 整体 上 衡量 算法 精确 度 5")， Precision 
只 考虑 排 在 前 工 位 的 边 是 否 预 测 准确 "1 而 Ranking 
Score 更 多 考虑 所 预测 的 边 的 排序 站。 

在 实际 应 用 中 , 决策 者 以 及 科研 工作 者 感 兴趣 
的 是 推荐 有 高 潜力 的 合作 , 一 般 只 关注 最 有 可 外 
作 的 前 几 个 合作 团体 ,而 不 会 关注 几 十 名 以 后 的 
作 团 体 。 因此 本 文采 用 Precision 来 评价 推荐 结果 , 选 
取 Top10 的 预测 结果 进行 推荐 。 以 2008 年 和 2009 
年 的 网 络 作为 训练 集 , 为 2009 年 以 后 的 合作 网 络 产 
生 推 荐 , 推荐 得 出 n 对 得 分 最 高 的 未 连接 的 节点 对 ， 
如 果 验 证 集 在 2010 年 存在 , 那么 这 个 推荐 就 是 成 功 
的 。 定义 5 为 成 功 推荐 的 个 数 ,n 为 推荐 的 总 数 。 推荐 
的 精确 度 定义 为 SR = ys 作为 衡量 推荐 质量 的 一 个 
指标 。 


5 结果 分 析 


5.1 单个 指标 、RF、ET 精确 度 对 比 

依据 相关 性 分 数 预测 不 同城 市 的 研究 所 间 的 合作 ， 
分 别 对 加 权 的 AA、CN、GD、Katz、RA、SimRank 6 
个 指标 进行 操作 , 预测 结果 精确 度 如 表 3 和 图 1 所 示 。 
其 中 ， Weighted Katz: 0 = 0.001 ， Weighted Graph 
Distance : w =1, Weighted SimRank:C=0.8 。 


~ 
EE 


2 
日 

a 
日 


Dhttps://github.com/rafguns/linkpred/archive/stable.zip. 


表 3 城市 层面 推荐 精确 度 


指标 (Weighted) 


人 AA CN GD Katz RA SimRank En en 
atz imRan 方法 方法 


n=5 80% 80% 80% 60% 80% 60% 60% 60% 


n=10 80% 80% 90% 80% 90% 40% 60% 80% 
n=20 85% 80% 90% 80% 85% 30% 62% 80% 
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图 1 推荐 精确 度 对 比 


已 有 的 研究 1 结合 RF 方法 ， 先 利用 链 路 预测 指 
标 作 为 训练 特征 ， 然 后 利用 RF 算法 训练 。 使 用 Gini 
Importance55 作 为 权重 确定 每 个 预测 指标 对 最 终了 预测 
结果 的 相对 贡献 ， 即 作为 组 合 权 重 进行 推荐 排序 。 随 
机 森林 中 每 棵 树 的 划分 都 记录 指标 异 质 性 的 降低 。 对 
森林 中 每 个 给 定 指标 减少 量 的 平均 值 就 是 该 指标 的 
Gini Importance。 简 单 而 言 ， 某 链 路 预测 指标 Gini 
Importance 越 高 ， 该 指标 越 重要 。 

这 里 采用 同样 方法 , 同时 利用 ET 算法 进行 训练 ， 
得 到 的 推荐 精确 度 结果 见 表 3。 分 别 对 比 6 个 链 路 预 
测 指标 、RF 算法 及 ET 的 推荐 精确 度 ,可 以 看 出 : 6 个 
链 路 预测 指标 ,预测 效果 基本 维持 在 80% 左 右 , 除了 
SimRank 指标 的 预测 效果 很 差 。 通 常情 况 下 ,预测 精 
确 度 随 着 推荐 个 数 的 增加 而 下 降 , 但 个 别 指标 也 会 存 
在 不 同 的 规律 。 出 乎 意料 的 是 , 已 有 的 集成 RF 的 方法 
计算 得 到 的 精确 度 只 有 60% 左 右 ， 这 个 精确 度 甚至 比 
单个 链 路 预测 指标 还 要 低 。 集 成 ET 的 方法 , 推荐 精确 
度 得 到 一 定 程度 的 提高 , 但 是 整体 精确 度 依然 不 如 某 
些 单个 链 路 预测 指标 的 预测 效果 。 因 此 本 文 对 Guns 
的 算法 进行 改进 ， 一 方面 采用 ET 算法 构建 模型 ， 另 一 
方面 采取 遍历 算法 枚 举 所 有 可 能 的 权重 组 合 ， 从 中 选 
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择 预测 效果 最 好 的 那 对 组 合作 为 最 优 权重 组 合 。 
5.2 ”获取 最 优 权重 

在 进一步 改进 的 方法 中 ,不 直接 采用 Gini 
Importance 作为 权重 ， 而 是 用 遍历 算法 枚 举 所 有 可 能 
的 权重 组 合 , 每 一 组 权重 组 合 能 够 对 应 一 组 推荐 精确 
度 结果 ,为 防止 ET 的 预测 结果 存在 过 多 偶然 因素 , 精 
确 度 均 为 10 次 计算 结果 的 平均 值 , 选取 精确 度 最 好 的 
前 5 组 权重 组 合 ,如 表 4 所 示 。 

表 4 不 同 权 重 下 改进 ET 的 推荐 精确 度 


Accuracy 


([AA, CN, GD, Katz, RA]) 2 Ct DN 
[0.0, 0.0, 1.0, 0.0, 0.0] 100% 97% 85% 
[0.05, 0.0, 0.85, 0.0, 0.1] 100% 90% 90% 
[0.0, 0.05, 0.85, 0.0, 0.1] 100% 90% 90% 
[0.0, 0.0, 0.9, 0.0, 0.1] 100% 90% 90% 
[0.0, 0.0, 0.85, 0.05, 0.1] 96% 90% 90% 


5.3 ”原因 分 析 

改进 ET 方法 的 结果 , 预测 精确 度 随 推荐 个 数 的 
增加 而 下 降 , 但 是 在 Top10 的 推荐 结果 中 ,推荐 精确 
度 等 于 或 接近 100%, 均 优 于 单个 链 路 预测 指标 , 也 优 
于 RF 和 ET 人 方法。 原因 如 下 。 

(1) 直观 上 理解 ， 如 果 说 5 个 指标 都 认为 某 两 个 
城市 可 能 会 产生 合作 , 那么 经 过 集成 学 习 得 到 的 结 
就 更 倾向 于 产生 合作 。 如 果 说 只 有 两 个 指标 预测 出 两 
个 城市 可 能 会 产生 合作 , 而 其 他 三 个 指标 均 预 测 城市 


间 不 会 产生 合作 , 那么 集成 学 习 得 到 的 结果 可 能 就 不 
会 特别 倾向 于 这 两 个 城市 产生 合作 。 因 此 集成 学 习 给 
出 的 推荐 精确 度 要 高 于 单个 指标 的 推荐 精确 度 。 

(2) RF 方法 中 , 融合 了 6 个 链 路 预测 指标 , 这 些 指 
标本 身 的 精确 度 有 高 有 低 , 精确 度 低 的 那些 指标 会 对 
最 终 预测 结果 产生 影响 ,而 改进 的 ET 方法 , 是 抽取 了 
预测 效果 大 于 70% 的 5 个 指标 , 可 以 理解 成 更 良好 的 
特征 选择 过 程 。 从 表 3 可 知 , SimRank 链 路 预测 指标 在 
本 文 数据 集中 预测 效果 很 差 . 因此 笔者 在 集成 算法 
ET 时 , 握 弃 SimRank 指标 ， 只 采用 前 5 个 指标 进行 
集成 。 

(3) RF 方法 预测 精确 度 并 不 是 很 好 ,因为 在 有 些 
情况 下 , Gini Importance 并 不 能 十 分 准确 反映 权重 , 重 
要 的 指标 不 代表 该 指标 的 权重 就 越 大 , RF 方法 在 本 文 
的 数据 集 上 应 用 效果 并 不 是 很 好 。 改 进 ET 方法 因为 
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遍历 了 所 有 可 能 的 权重 组 合 ,更 能 得 到 最 优 精确 度 。 
同时 , 改进 ET 算法 集成 了 不 同 特征 的 链 路 预测 指标 ， 
可 以 有 效 针对 不 同 拓扑 结构 的 网 络 进行 训练 , 适用 范 
围 更 广泛 。 

改进 ET 算法 稳定 程度 更 高 , 给 出 的 5 组 效果 较 好 
的 权重 组 合 ,每 个 指标 方差 很 小 。 比 如 GD 指标 , 5 组 
组 合 中 GD 指标 的 权重 区 间 为 [0.85,1.0];RA 的 权重 区 
间 也 是 [0.0,0.1]。 因 此 可 以 放心 地 采用 ([AA, CN, GD,， 
Katz, RA]:[0.0, 0.0, 1.0, 0.0, 0.0]) 作 为 最 优 权重 组 合 。 

在 改进 ET 算法 中 , 预测 精确 度 较 高 的 单个 链 路 
预测 指标 , 其 所 对 应 的 权重 相对 较 高 , 说 明 在 预测 中 
起 的 作用 较 大 。 在 实际 应 用 中 , 可 以 先 选择 较 多 的 链 
路 预测 指标 进行 预测 , 然后 从 中 抽取 效果 较 好 的 那些 
指标 作为 ET 算法 的 特征 输入 ,这样 可 以 保证 更 好 的 
机 器 学 习 效果 。 

与 传统 的 图 书 情 报 领 域 单纯 利用 被 引 频次 、 有 限 
因素 等 来 构建 网 络 进行 链 路 预测 相 比 ,将 链 路 预测 方 
法 与 ET 结合 , 参考 更 多 因素 来 预测 未 来 可 能 的 合作 
关系 ,能够 取得 更 好 的 方法 适用 性 以 及 精确 度 。 同 时 ， 
这 种 机 器 学 习 方法 还 有 一 个 突出 的 优势 :对 于 处 理 大 
型 合作 网 络 问题 能 够 很 好 地 减少 时 间 复 杂 度 ,提高 预 
测 效 果 。 


6 结 语 


本 文 介绍 基于 链 路 预测 和 ET 改进 的 科研 合作 推 
荐 方法 , 提出 预测 效果 更 好 的 ET 算法 , 并 在 方法 流程 
上 加 入 枚 举 所 有 可 能 权重 以 求解 最 优化 权重 组 合 的 步 
又 , 选择 最 优化 权重 组 合 进行 排序 , 极 大 提高 了 推荐 
准确 度 , 提 升 后 的 推荐 成 功率 高 于 所 有 单个 指标 的 推 
荐 成 功率 。ET 算法 集成 了 不 同 特征 的 链 路 预测 指标 ， 
可 以 有 效 针对 不 同 拓扑 结构 的 网 络 进行 训练 ,使 得 推 
荐 结果 较 稳 定 , 适用 性 比 单个 链 路 预测 适用 性 广 , 是 
一 种 很 好 的 推荐 研究 合作 伙伴 的 方法 。 同 时 相 较 于 支 
持 向 量 机 等 机 器 学 习 方法 有 较 好 的 时 间 复 杂 度 , 在 处 
理 大 型 科研 合作 网 络 时 有 十 分 突出 的 优势 ,这 使 得 科 
研 合作 推荐 可 以 进行 更 微观 的 应 用 层面 尝试 。 

本 研究 在 构建 数据 集 时 , 一 篇 文章 如 果 有 多 位 作 
者 来 自 同一 城市 , 按照 一 个 作者 来 衡量 ,例如 , 一 篇 文 
章 有 5 位 作者 来 自 A 城市 、3 位 作者 来 自 B 城市 , 等 
同 于 这 篇 文章 有 一 位 作者 来 自 A 城市 、 一 位 作者 来 自 
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B 城市 。 后 续 研 究 中 , 将 尝试 从 异 质 网 的 角度 单独 考 
虑 同一 城市 多 位 作者 的 情况 。 

在 城市 层面 ,世界 各 国 城市 之 间 科研 水 平 各 有 特 
点 ,寻找 科研 合作 伙伴 可 以 最 大 程度 地 发 挥 自己 的 科 
研 优势 。 科 研 相 对 不 发 达 的 城市 寻求 与 科研 发 达 城市 
的 合作 也 十 分 具有 吸引 力 鸣 ， 比 如 建立 当地 的 精英 
中 心 以 及 对 发 展 中 国家 共同 的 需求 和 问题 有 更 全 面 
的 认识 。 同 时 , 本 研究 方法 可 以 扩展 到 科研 机 构 其 
至 科研 工作 者 等 更 微观 的 层面 , 这 样 可 以 获取 更 实用 
的 价值 。 但 是 微观 层面 构造 的 网 络 过 于 庞大 ,应 用 现 
有 的 工具 进行 链 路 预测 分 析 效 率 很 低 ， 如果 能 改善 现 
有 链 路 预测 方法 或 者 改善 数据 集 , 得 到 各 个 链 路 预测 
指标 的 预测 结果 ,就 可 以 应 用 本 文 的 方法 进行 合作 推 
荐 , 这 也 是 本 文 的 一 个 研究 目标 。 

整体 而 言 ,关于 链 路 预测 在 科研 合作 推荐 的 应 用 
还 处 在 探索 性 、 实 证 性 的 研究 阶段 , 不 同 的 预测 指标 
和 方法 都 有 其 优 缺 点 与 适用 范围 , 因此 寻找 一 种 合适 
的 途径 来 集成 不 同 的 预测 结果 或 者 是 将 尽量 多 的 信息 
(如 网 络 节点 的 属性 、 网 络 拓扑 结构 等 ) 包 含 在 指标 中 ， 
是 以 后 的 研究 方向 。 同 时 , 借助 链 路 预测 的 理论 框架 
和 评价 方法 ,可 以 为 交叉 学 科 合作 趋势 、 研 发 群体 等 
提供 推荐 建议 ， 从 而 解决 寻找 合作 者 这 一 难题 9。 更 
进一步 的 结论 还 需要 更 多 实验 支撑 ,这 也 是 未 来 工作 
方向 。 
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Recommending Scientific Research Collaborators with Link 
Prediction and Extremely Randomized Trees Algorithm 


Lv Weimin WangXiaomei’” Han Tao 
!(National Science Library, Chinese Academy of Sciences, Beijing 100190, China) 
2(University of Chinese Academy of Sciences, Beijing 100049, China) 
3(Institutes of Science and Development, Chinese Academy of Sciences, Beijing 100190, China) 


Abstract: [Objective] This paper proposes a method to recommend scientific research collaborators based on link 
prediction and machine learning, which improves the precision of traditional method. [Methods] First, we used Link 
Prediction Algorithm index to build the feature input, and adopted the Extremely Randomized Trees Algorithm to train 
the classifier. Then，we obtained the optimal weight combination with the traversal algorithm to combine the 
classification results linearly. Finally, we received the best recommendation of collaborators. [Results] The Improved 
ET method had better performance than the existing ones in recommending the collaboration cities. Besides, the 
proposed method was less affected by factors such as the network structure, and could be used with more applications. 
[Limitations] Scientific research collaboration ls affected by the cooperation motivation, geographical, language and 
many other factors. The weighted author network did not examine authors from the same cities or with the same 
organizations. [Conclusions] The propsoed method could produce better recommendation results, which might help 
universities, institutions and individuals identify academic collabortors. 

Keywords: Scientific Research Collaboration Network Link Prediction Machine Learning Random Forest 


Extremely Randomized Trees Recommendation 


OCLC Research 发 布 档案 工作 者 与 IT 专业 人 士 合作 指南 


OCLC 于 近日 发 布 了 《Demystifying IT: 档案 工作 者 与 IT 专业 人 士 合作 框架 》, 是 “Demystifying Bor Digital” 系 列 的 后 
续 报 告 , 该 系列 报告 则 在 帮助 档案 工作 者 更 好 地 了 解 信 息 技术 专业 人 员 的 工作 方式 ， 从 而 使 其 成 为 更 加 有 效 的 合作 者 。 

该 报告 的 作者 有 克 莱 顿 州立 大 学 Seth Shaw 、 密 歇 根 大 学 图 书馆 Richard C. Adler 和 OCLC Research 的 Jackie Dooley。 
这 一 报告 描述 了 IT 提供 商 的 类 型 以 及 他 们 通常 提供 的 服务 , 深入 分 析 了 软件 开发 过 程 ,为 建立 伙伴 关系 提供 指导 ,并 强调 资 
源 约束 的 中 心地 位 。 

Dooley 说 :“ 本 报告 由 在 简要 介绍 信息 技术 , 帮助 数字 档案 管理 员 了 解 其 特点 , 技术 和 文化 , 使 其 成 为 潜在 的 最 有 效 的 合 
作者 。” 

数字 档案 管理 员 需 要 工具 和 平台 来 提取 、 管 理 和 提供 所 有 类 型 的 电子 记录 和 数字 内 容 的 访问 。 数 字 系 统 的 复杂 性 使 得 
IT 专业 人 员 的 参与 变 得 至 关 重 要 。 档 案 管 理 员 具有 复杂 的 领域 知识 , 而 IT 人 员 具 有 先进 的 技术 能 力 。 有 效 合作 需要 了 解 披 
此 的 专长 , 特点 和 制约 因素 。 
(编译 自 : https://www.oclc.org/en/news/releases/2017/201711dublin.html) 
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